## ANTES DE USAR
# Para criar data/movies.csv
import_data("tom_hanks") # ou com o ator/atriz que você escolher

Coleta dos dados

Ao todo foram coletados os dados de 46 filmes nos quais Tom Hanks atuou diretamente ou deu voz à personagens. As informações coletadas foram: as avaliações dos críticos sobre os filmes, as notas dadas pela audiência, os nomes dos filmes, os papéis designados pelo ator, as vendas de bilheteria dos filmes e os seus anos de lançamento. Mais informações sobre os tipos e nomes das variáveis podem ser encontradas abaixo.

## Rows: 46
## Columns: 6
## $ avaliacao      <int> 88, 97, 95, 88, 15, 70, 85, 23, 90, 93, 79, 66, 37, 45,~
## $ nota_audiencia <dbl> 89, 94, 92, 73, 21, 54, 84, 36, 87, 89, 84, 66, 41, 61,~
## $ filme          <chr> "News of the World", "Toy Story 4", "A Beautiful Day in~
## $ papel          <chr> "Captain Kidd (Character)", "Woody (Voice)", "Fred Roge~
## $ bilheteria     <dbl> 12.7, 434.0, 61.7, 81.4, 20.5, 4.2, 125.0, 34.3, 72.3, ~
## $ ano            <int> 2020, 2019, 2019, 2017, 2017, 2016, 2016, 2016, 2015, 2~

Análise dos filmes segundo sucesso de público e de crítica

Para esta análise foram selecionados apenas os dados de avaliação e bilheteria dos filmes, fazendo o agrupamento destes dados com o k-means.

# Como a escala dos valores de bilheteria tem distâncias maiores do que a escala dos valores de avaliação, as variáveis foram transformadas para a mesma unidade usando o desvio padrão.

m_transformado = filmes %>% 
    mutate(bilheteria_log_scaled = as.vector(scale(log10(bilheteria))), 
           avaliacao_scaled = as.vector(scale(avaliacao))) 
n_clusters = 5

km = m_transformado %>%
    select(bilheteria_log_scaled, avaliacao_scaled) %>%
    kmeans(centers = n_clusters, nstart = 20)

agrupado = km %>% 
    augment(m_transformado)

grupos = agrupado %>%
    ggplot(aes(x = avaliacao, y = bilheteria, label = filme, color = .cluster)) +
    geom_point(size = 1.5)+
    scale_y_log10()+
    labs(
        x = "Avaliação",
        y = "Bilheteria",
        color = "Grupos"
    )

ggplotly(grupos)

Grupo dos filmes de fracasso em bilheteria mas com boas avaliações: se refere ao grupo onde estão os filmes onde as avaliações dos críticos foram altas(com excessão de Radio Flyer) mas que atingiram baixíssimas vendas de bilheteria, como por exemplo The Celluloid Closet, que obteve nota 97 porém foi o que teve a menor venda ingressos.

Grupo dos filmes com péssimas avaliações mas que tiveram um bom sucesso de bilheteria: se refere ao grupo nos quais estão os filmes onde as avaliações dos críticos foram abaixo de 40 mas que tiveram uma grande quantidade de ingressos vendida, como por exemplo o filme The Da Vinci Code.

Grupo dos filmes que tiveram um número de bilheteria e de avaliações mediano: se refere ao grupo nos quais os filmes obtiveram sucesso médio na venda de ingressos e avaliações proporcionais, como por exemplo o filme The Polar Express.

Grupo dos filmes que obtiveram ótimas avaliações e um bom sucesso de bilheteria: se refere aos filmes do grupo onde a avaliação dos críticos foi maior que 70, e a venda de ingressos foi de média à alta, um exemplo é o filme Big. O de maior avaliação deste grupo, com 100 pontos, foi o filme Toy Story.

Grupo dos filmes de maior sucesso em bilheteria e ótimas avaliações: se refere aos filmes do grupo nos quais venderam o maior número de ingressos e obtiveram avaliação maior que 87(com excessão de Forrest Gump que teve uma avaliação de 71 pontos). Os filmes com maior venda de bilheteria deste grupo foram Toy Story 3 e 4, e o de maior avaliação, com 100 pontos, foi Toy Story 2.